Разведочный анализ данных. Исследование и визуализация данных.

Задание:

Выбрать набор данных (датасет). Вы можете найти список свободно распространяемых датасетов здесь.
Для первой лабораторной работы рекомендуется использовать датасет без пропусков в данных, например из Scikit-learn.
Пример преобразования датасетов Scikit-learn в Pandas Dataframe можно посмотреть здесь.
Для лабораторных работ не рекомендуется выбирать датасеты большого размера.

Создать ноутбук, который содержит следующие разделы:

Текстовое описание выбранного Вами набора данных.
Основные характеристики датасета.
Визуальное исследование датасета.
Информация о корреляции признаков.
Сформировать отчет и разместить его в своем репозитории на github.

1) Текстовое описание набора данных

В качестве набора данных будем исползовать датасет пациентов с диабетом - https://www4.stat.ncsu.edu/~boos/var.select/diabetes.tab.txt

Импорт библиотек

Загрузка данных

2) Основные характеристики датасета

3) Визуальное исследование датасета

Диаграмма рассеяния

Как видно из диаграммы выше, проявляется очень слабое распредление по гиперболе.

В этом примере зависимость имеет линейный характер

Гистограммы

Оценим плотность вероятности распределения данных на примере возраста пациентов.

Ящик с усами

Построим распределние параметра AGE сгруппированное по SEX

Violin plot

Аналогично диаграмме "ящик с усами" построим диаграмму "Violin plot"

Исследование корреляции признаков

Корреляционная матрица

По умолчанию используем коэффициент корреляции Пирсона

Для большей наглядности визуализируем корреляционную матрицу с помощью тепловой карты "heatmap"

Постороим также тепловые карты разными методами